3 research outputs found

    Tasks Fairness Scheduler for GPU

    Get PDF
    Nowadays GPU clusters are available in almost every data processing center. Their GPUs are typically shared by different applications that might have different processing needs and/or different levels of priority. As current GPUs do not support hardware-based preemption mechanisms, it is not possible to ensure the required Quality of Service (QoS) when application kernels are offloaded to devices. In this work, we present an efficient software preemption mechanism with low overhead that evicts and relaunches GPU kernels to provide support to different preemptive scheduling policies. We also propose a new fairness-based scheduler named Fair and Responsive Scheduler, (FRS), that takes into account the current value of the kernels slowdown to both select the new kernel to be launched and establish the time interval it is going to run (quantum).Universidad de M谩laga. Campus de Excelencia Internacional Andaluc铆a Tech

    A Hybrid Piece-Wise Slowdown Model for Concurrent Kernel Execution on GPU

    Get PDF
    Current execution of kernels on GPUs allows improving the use of hardware resources and reducing the execution time of co-executed kernels. In addition, efficient kernel-oriented scheduling policies pursuing criteria based on fairness or Quality of Service can be implemented. However, achieved co-executing performance strongly depends on how GPU resources are partitioned between kernels. Thus, precise slowdown models that predict accurate co-execution performance must be used to fulfill scheduling policy requirements. Most recent slowdown models work with Spatial Multitask (SMT) partitioning, where Stream Multiprocessors (SMs) are distributed among tasks. In this work, we show that Simultaneous Multikernel (SMK) partitioning, where kernels share the SMs, obtains better performance. However, kernel interference in SMK occurs not only in global memory, as in the SMT case, but also within the SM, leading to high prediction errors. Here, we propose a modification of a previous state-of-the-art slowdown model to reduce median prediction error from 27.92% to 9.50%. Moreover, this new slowdown model is used to implement a scheduling policy that improves fairness by 1.41x on average compared to even partitioning, whereas previous models reach only 1.21x on average.Universidad de M谩laga. Campus de Excelencia Internacional Andaluc铆a Tech P18-FR-3130 UMA20-FEDERJA-059 PID2019-105396RB-I0

    Planificaci贸n concurrente de comandos en GPU

    Get PDF
    Nuestro modelo software, denominado FlexSched, implementa pol铆ticas de planificaci贸n destinadas a maximizar el rendimiento en la ejecuci贸n de los kernels o a satisfacer requisitos de calidad de servicio (QoS) de la misma, como por ejemplo el tiempo m谩ximo de respuesta de un kernel. Una ventaja importante de FlexSched es que requiere solo modificaciones m铆nimas en el c贸digo del kernel y utiliza un profiler on-line productivo para lograr una distribuci贸n eficiente de los recursos de la GPU. Tambi茅n se presenta un modelo hardware, HPSM (Hybrid Piecewise Slowdown Model), de planificaci贸n y ejecuci贸n concurrente de kernels en una GPU que permite mejorar el tiempo de ejecuci贸n de un conjunto de kernels y aplicar pol铆ticas orientadas al fairness. Este modelo puede predecir el progreso normalizado de los kernels y redistribuir la asignaci贸n de recursos para alcanzar los objetivos marcados.En esta tesis se analiza el problema de planificar un conjunto de tareas sobre una GPU desde diferentes puntos de vista. Por una parte, se estudia el solapamiento de comandos de transferencia de datos con comandos de ejecuci贸n de kernels con el objetivo de minimizar el tiempo de ejecuci贸n (makespan). Por otra parte se comparan distintos m茅todos que permiten la ejecuci贸n solapada de varios kernels sobre la misma GPU buscando alcanzar diferentes objetivos como maximizar el rendimiento del sistema (system throughput), alcanzar la equidad (fairness) o garantizar una calidad de servicio (QoS). En el estudio sobre el solapamiento de comandos se busca identificar el orden de ejecuci贸n que resulte en un tiempo de procesamiento m铆nimo. Se aplican los conceptos de la teor铆a de planificaci贸n a este problema y se modela la ejecuci贸n concurrente de tareas en una GPU como un problema de tipo Flow Shop. Adem谩s, se desarrolla una nueva estrategia llamada NEH-GPU que combina una heur铆stica previamente existente con un modelo de ejecuci贸n de tareas en GPU y se efect煤an experimentos para validar su eficacia y robustez. En la tesis tambi茅n se aborda el problema de la ejecuci贸n concurrente de kernels (CKE) analiz谩ndolo desde el punto de vista software y hardware. En este problema se busca planificar un conjunto de kernels para su coejecuci贸n y de esta forma mejorar el uso de los recursos hardware
    corecore